iT邦幫忙

2023 iThome 鐵人賽

DAY 28
1

在進行人工智慧相關任務時,有很多處理技巧可以改善模型的表現,但是「資料」絕對是最關鍵的核心要素,資料的質量和數量差異會對模型的性能產生很大的影響,於是,今天就要來分享資料擴增~
/images/emoticon/emoticon24.gif


資料擴增(Data Augmentation)

通過對現有數據進行各種變換和轉換,來生成新的數據的方法。它的目標是增加數據的多樣性和數量,以滿足不同任務的需求

優點

  • 提高模型性能
    在許多機器學習任務中,模型的性能會高度依賴於可用的訓練數據。通常,使用更多的數據可以幫助模型更好地理解和應對各種情況,然而,現實生活中,要取得足夠大量的可用數據是很不容易的,於是就可透過資料擴增,人為地擴展數據集,從而提高模型的性能

  • 防止過度擬合
    過度擬合是機器學習中一個常見的問題,它發生在模型在訓練數據上表現很好,但在新數據上表現不佳的情況,透過資料擴增引入更多多樣性的資料,讓模型更難對訓練數據進行過度擬合,因為它不會只學習記住特定特徵,而是學習適應各種不同的情境

  • 解決資料類別不平衡問題
    在分類任務中,不同類別的數據量可能差異很大,這種情況就是類別不平衡,使用資料擴增就可以平衡不同類別的數據量,使得改善模型的性能

  • 降低標記和清理成本
    標記和清理原始數據集的成本可能會非常高昂,所以透過資料擴增,在不增加標記和清理成本的情況下獲得更多的數據

舉例應用

  • 影像任務:
    • 可以通過翻轉、旋轉、平移、裁剪、縮放等方法來幫助模型從不同角度、尺度觀察物件
    • 明亮變換,可以讓模型學習不同光線下的影像
    • 模糊化可以模擬光學模糊和沒對焦的情況
  • 文字任務:
    • 可以通過替換單詞、改變句子結構等方式生成新的句子
  • 音訊任務:
    • 添加雜訊、改變音高或速度或引入背景聲音,讓模型對語音模式和環境因素的變化變得更加可靠

侷限性

  • 如果原始數據存在偏差,資料擴增後的數據也會反映這種偏差
  • 不是所有的增強方法都適用於該任務
  • 生成出來的影像或數據有時可能不符合現實場景

上一篇
前處理 D1 - 降低雜訊
下一篇
前處理 D3 - 特徵縮放
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言